Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/dsproglib/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение | Telegram Webview: dsproglib/6422 -
Telegram Group & Telegram Channel
📌 Какой вектор лучше: Dense vs Multi-vector embeddings

Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.

📍 Dense-векторы (single vector per doc):
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска

📍 Multi-vector (late interaction):
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью

📍 Late interaction ≈ золотая середина:
— быстрее, чем cross-encoders
— точнее, чем dense-векторы

📍 Примеры моделей:
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)

Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6422
Create:
Last Update:

📌 Какой вектор лучше: Dense vs Multi-vector embeddings

Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.

📍 Dense-векторы (single vector per doc):
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска

📍 Multi-vector (late interaction):
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью

📍 Late interaction ≈ золотая середина:
— быстрее, чем cross-encoders
— точнее, чем dense-векторы

📍 Примеры моделей:
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)

Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6422

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

How To Find Channels On Telegram?

There are multiple ways you can search for Telegram channels. One of the methods is really logical and you should all know it by now. We’re talking about using Telegram’s native search option. Make sure to download Telegram from the official website or update it to the latest version, using this link. Once you’ve installed Telegram, you can simply open the app and use the search bar. Tap on the magnifier icon and search for a channel that might interest you (e.g. Marvel comics). Even though this is the easiest method for searching Telegram channels, it isn’t the best one. This method is limited because it shows you only a couple of results per search.

For some time, Mr. Durov and a few dozen staffers had no fixed headquarters, but rather traveled the world, setting up shop in one city after another, he told the Journal in 2016. The company now has its operational base in Dubai, though it says it doesn’t keep servers there.Mr. Durov maintains a yearslong friendship from his VK days with actor and tech investor Jared Leto, with whom he shares an ascetic lifestyle that eschews meat and alcohol.

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from ru


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA